In this paper, we propose a large-scale language pre-training for text GENeration using dIffusion modEl, which is named GENIE. GENIE is a pre-training sequence-to-sequence text generation model which combines Transformer and diffusion. The diffusion model accepts the latent information from the encoder, which is used to guide the denoising of the current time step. After multiple such denoise iterations, the diffusion model can restore the Gaussian noise to the diverse output text which is controlled by the input text. Moreover, such architecture design also allows us to adopt large scale pre-training on the GENIE. We propose a novel pre-training method named continuous paragraph denoise based on the characteristics of the diffusion model. Extensive experiments on the XSum, CNN/DailyMail, and Gigaword benchmarks shows that GENIE can achieves comparable performance with various strong baselines, especially after pre-training, the generation quality of GENIE is greatly improved. We have also conduct a lot of experiments on the generation diversity and parameter impact of GENIE. The code for GENIE will be made publicly available.
translated by 谷歌翻译
从实验或模拟数据中学习对的相互作用对于分子模拟引起了极大的兴趣。我们提出了一种使用可区分的模拟(DIFFSIM)从数据中学习对相互作用的通用随机方法。 DIFFSIM通过分子动力学(MD)模拟定义了基于结构可观察物(例如径向分布函数)的损耗函数。然后,使用反向传播直接通过随机梯度下降直接学习相互作用电位,以通过MD模拟计算相互作用势的结构损耗度量标准的梯度。这种基于梯度的方法是灵活的,可以配置以同时模拟和优化多个系统。例如,可以同时学习不同温度或不同组合物的潜力。我们通过从径向分布函数中恢复简单的对电位(例如Lennard-Jones系统)来证明该方法。我们发现,与迭代Boltzmann倒置相比,DIFFSIM可用于探测配对电位的更广泛的功能空间。我们表明,我们的方法可用于同时拟合不同组成和温度下的模拟电位,以提高学习势的可传递性。
translated by 谷歌翻译
人类共享的控制允许人类与AI进行互动和协作,以在复杂的环境中完成控制任务。以前的强化学习(RL)方法试图以目标条件的设计来实现可控制的政策,而付出了重新设计奖励功能和培训范式。受到神经科学方法研究灵长类动物皮层的启发,我们开发了一种简单但有效的基于频率的方法,称为\ textit {策略解剖},以使学习神经控制器的中间表示与代理行为的运动属性相结合。在不修改神经控制器或检验模型的情况下,提出的方法可以将给定的RL训练的政策转换为人际关系政策。我们评估了关于自动驾驶和运动的RL任务的建议方法。实验表明,通过政策解剖在驾驶任务中实现的人类共享控制可以大大改善看不见的交通场景的性能和安全性。随着人类的循环,机器人机器人也表现出多功能的可控运动技能,即使他们只接受了前进的训练。我们的结果表明,通过解释自主代理的学习代表来实施人类共享自治的有希望的方向。演示视频和代码将在https://metadriverse.github.io/policydissect上提供。
translated by 谷歌翻译
通过纳入缺失区域的先验知识,通常用于图像染色的辅助损失导致更好的重建性能。但是,它通常需要充分利用辅助损失的潜力需要很多努力,因为加权辅助损失不当会分散模型从染色任务中的注意力,并且辅助损失的有效性可能在培训过程中变化。此外,辅助损失的设计需要域专业知识。在这项工作中,我们介绍了辅助损耗适应(Adaption)算法动态调整辅助丢失的参数,以更好地帮助主要任务。我们的算法基于更好的辅助损耗的原理是通过梯度下降的几个步骤提高主要损失性能的原理。然后,我们检查了两个常用的辅助损失,以适应\ ac {ala}来调整它们的参数。实验结果表明,ALA诱导比固定辅助损失更具竞争力的耐受效果。特别是,只需用\ ac {ALA}结合辅助损耗,现有的染色方法可以在未经明确地结合精密网络设计或结构知识的情况下实现增加的性能。
translated by 谷歌翻译
知识蒸馏是将知识从强大的教师转移到有效的学生模型的有效方法。理想情况下,我们希望老师越好,学生越好。但是,这种期望并不总是成真。通常,由于教师和学生之间的不可忽略的差距,更好的教师模型通过蒸馏导致不良学生。为了弥合差距,我们提出了一种渐进式蒸馏方法,以进行致密检索。产品由教师渐进式蒸馏和数据进行渐进的蒸馏组成,以逐步改善学生。我们对五个广泛使用的基准,MARCO通道,TREC Passage 19,TREC文档19,MARCO文档和自然问题进行了广泛的实验,其中POD在蒸馏方法中实现了密集检索的最新方法。代码和模型将发布。
translated by 谷歌翻译
点云注册旨在估计两点云扫描之间的几何变换,在该点对应的估计中是其成功的关键。除了先前通过手工制作或学习的几何特征寻求对应的方法外,最近的点云注册方法还尝试应用RGB-D数据以实现更准确的对应关系。但是,有效地融合了这两种独特方式的几何和视觉信息并不是微不足道的,尤其是对于注册问题而言。在这项工作中,我们提出了一种新的几何感知视觉特征提取器(给出),该提取器采用多尺度的本地线性转换来逐步融合这两种方式,其中深度数据的几何特征是几何依赖于几何依赖的卷积内核来转换RGB数据的视觉功能。最终的视觉几何特征位于典型的特征空间中,由于几何变化引起的视觉差异可缓解,因此可以实现更可靠的对应关系。提出的给出的模块可以很容易地插入最近的RGB-D点云注册框架中。在3D匹配和扫描仪上进行的广泛实验表明,即使没有信件或姿势监督,我们的方法即使在没有通信或姿势的情况下也优于最先进的点云注册方法。该代码可在以下网址获得:https://github.com/514DNA/llt。
translated by 谷歌翻译
产量估计是葡萄园管理中的强大工具,因为它允许种植者微调实践以优化产量和质量。但是,目前使用手动抽样进行估计,这是耗时和不精确的。这项研究表明,近端成像的应用与深度学习相结合,以进行葡萄园中的产量估计。使用车辆安装的传感套件进行连续数据收集,并使用商业收益率监控器在收获时结合了地面真实收益数据的收集,可以生成一个23,581个收益点和107,933张图像的大数据集。此外,这项研究是在机械管理的商业葡萄园中进行的,代表了一个充满挑战的图像分析环境,但在加利福尼亚中央山谷中的一组常见条件。测试了三个模型架构:对象检测,CNN回归和变压器模型。对象检测模型在手工标记的图像上进行了训练以定位葡萄束,并将束数量或像素区域求和以与葡萄产量相关。相反,回归模型端到端训练,以预测图像数据中的葡萄产量,而无需手动标记。结果表明,在代表性的保留数据集上,具有相当的绝对百分比误差为18%和18.5%的变压器和具有像素区域处理的对象检测模型。使用显着映射来证明CNN模型的注意力位于葡萄束的预测位置附近以及葡萄树冠的顶部。总体而言,该研究表明,近端成像和深度学习对于大规模预测葡萄群的适用性。此外,端到端建模方法能够与对象检测方法相当地执行,同时消除了手工标记的需求。
translated by 谷歌翻译
旨在将原始视觉观察映射到动作的深度视觉运动策略学习在控制任务(例如机器人操纵和自动驾驶)中实现了有希望的结果。但是,它需要与培训环境进行大量在线互动,这限制了其现实世界的应用程序。与流行的无监督功能学习以进行视觉识别相比,探索视觉运动控制任务的功能预读量要少得多。在这项工作中,我们的目标是通过观看长达数小时的未经保育的YouTube视频来预先驾驶任务的政策表示。具体而言,我们使用少量标记数据训练一个反向动态模型,并使用它来预测所有YouTube视频帧的动作标签。然后开发了一种新的对比策略预告片,以从带有伪动作标签的视频框架中学习动作条件的功能。实验表明,由此产生的动作条件特征为下游增强学习和模仿学习任务提供了实质性改进,超出了从以前的无监督学习方法和图预审预周化的体重中预见的重量。代码,模型权重和数据可在以下网址提供:https://metadriverse.github.io/aco。
translated by 谷歌翻译
学习者语料库收集L2学习者产生的语言数据,即第二或外语学习者。这种资源与第二语言采集研究,外语教学和自动语法纠错有关。但是,几乎没有焦点汉语作为外语(CFL)学习者的学习者语料库。因此,我们建议构建大规模的多维注释的中国学习者语料库。要构建语料库,我们首先获得CFL学习者生成的大量富有的富主题文本。然后我们设计一个注释方案,包括句子可接受性得分以及语法错误和基于流畅的校正。我们构建一个众群平台,有效地执行注释(https://yaclc.wenmind.net)。我们命名语料库yaclc(又一个中国学习者语料库)并将其释放为Cuge基准(http://cuge.baai.ac.cn)。通过分析语料库中的原始句子和注释,我们发现Yaclc具有相当大的尺寸和非常高的注释质量。我们希望这项语料库能够进一步加强中国国际教育和中国自动语法纠错的研究。
translated by 谷歌翻译
自驱动粒子(SDP)描述了日常生活中常见的一类常见的多种子体系统,例如植绒鸟类和交通流量。在SDP系统中,每个代理商都追求自己的目标,并不断改变其与附近代理商的合作或竞争行为。手动设计用于此类SDP系统的控制器是耗时的,而产生的紧急行为往往是不可逼真的,也不是更广泛的。因此,SDP系统的现实模拟仍然具有挑战性。强化学习提供了一种吸引人的替代方案,用于自动化SDP控制器的开发。然而,以前的多档强化学习(Marl)方法将代理人定义为手头之前的队友或敌人,这未能捕获每个代理的作用的SDP的本质,即使在一个集中也变化或竞争。为了用Marl模拟SDP,一个关键挑战是协调代理的行为,同时仍然最大化个人目标。将交通仿真作为测试床,在这项工作中,我们开发了一种称为协调政策优化(Copo)的新型MARL方法,该方法包括社会心理学原理来学习SDP的神经控制器。实验表明,与各种度量标准的Marl基线相比,该方法可以实现优越的性能。明显的车辆明显地表现出复杂和多样化的社会行为,以提高整个人口的性能和安全性。演示视频和源代码可用于:https://decisionforce.github.io/copo/
translated by 谷歌翻译